مدلهای زبانی بزرگ OpenAI (LLM) بر روی قسمت وسیعی از مجموعه دادهها آموزش داده شدهاند تا بتوانند اطلاعات را از غبارآلودترین و پوشیدهترین گوشههای شبکه تارعنکبوتی جهانی وب استخراج کنند.
تیمی از محققان کره جنوبی دقیقاً این کار را انجام دادند و یک مدل هوش مصنوعی به نام DarkBERT تولید کردند تا لیستی از بزرگترین دامنههای(Domains)ثبت نشده موجود در سمت تاریک اینترنت را افشا کنند.
این کار جذابیت خاصی به برخی از تاریکترین گوشههای وب جهانی میدهد. و اسم دارک وب مترادف شده با فعالیتهای غیرقانونی و مخرب، از اشتراکگذاری دادههای محرمانه گرفته تا فروش مواد مخدر.
شاید شبیه یک کابوس باشد، اما محققان میگویند DarkBERT نیتش خیر است: تلاش برای پیدا کردن راههای جدید، به منظور مبارزه با جرایم سایبری، جایی که از پردازش زبان طبیعی استفاده زیادی میشود.
جنگ با جرایم سایبری
شاید تعجب آور باشد و فهم آن آسان نباشد، اما قسمتهایی از وب توسط موتورهای جستجو مانند گوگل فهرست نمیشوند و این بخشها اغلب فقط از طریق نرمافزار خاصی قابل دسترسی هستند.
در مقاله ای با عنوان«DarkBERT : مدل زبانی برای سمت تاریک اینترنت»، که هنوز مورد بررسی محققان قرار نگرفته است، این تیم مدل خود را به شبکه Tor، سیستمی برای دسترسی به بخشهایی از سمت تاریک اینترنت متصل کرد؛ و سپس با فیلتر کردن دادههای به دست آمده، دیتابیسی بر اساس دارک وب ساخت.
این تیم میگوید مدل زبانی LLM جدیدشان، نسبت به مدلهایی که برای انجام کارهای مشابه آموزش دیدهاند، عملکرد بهتری داشته است؛ از جمله مدل زبانی RoBERTa که طبق گفته سخنگوی رسمی فیسبوک، محققان فیسبوک در سال ۲۰۱۹ آن را برای «پیشبینی مخفی کردن بخشهایی در یک متن و یا مثالهای زبانی شناخته نشده»،طراحی کردند.
این محققان در مقاله ای خاطر نشان کردند: «نتایج ارزیابی ما نشان میدهد که مدل طبقهبندی مبتنی بر DarkBERT از مدلهای زبانی از پیش آموزش دیده دیگر عملکرد بهتری دارد».
این تیم پیشنهاد میکند که DarkBERT میتواند برای انواع وظایف مرتبط با امنیت سایبری، مانند شناسایی سایتهایی که باجافزار میفروشند یا دادههای محرمانه را افشا میکنند، استفاده شود. همچنین میتوان از آن برای رخنه در انجمنهای بیشماری از وب تاریک که هر روز، بهروزرسانی میشوند استفاده کرد وهمچنین نظارت کاملی برای هرگونه تبادل اطلاعات غیرقانونی داشت.
به طور کلی، اگر این حرفها در مورد DarkBERT واقعیت و صحت داشته باشد شاید آن را باور کنیم. اما حتی اگر این سیستم همانطور که گفته میشود کار کند، آیا واقعاً میخواهیم که اجازه دهیم هوش مصنوعی، اینترنت را همانند یک پلیس نظارت کند؟